• Inicio
  • Resumen
  • Análisis
    • Introducción contextual
    • 1. Revisión inicial de muestras y metadatos
    • 2. Evaluación de calidad de las lecturas
    • 3. Alineamiento de las lecturas
    • 4. Cuantificación de la expresión génica
    • 5. Análisis estadístico de la expresión génica
    • 6. Conclusiones y perspectivas

RNA-Seq Report

Pestaña

Análisis bioinformático completo

Sección 5

Análisis estadístico de la expresión génica

Subsección 5.1

Normalización de los datos de expresión

Resumen

En esta sección se lleva a cabo la normalización de los datos de expresión génica, un paso esencial para garantizar la comparabilidad entre muestras y minimizar sesgos técnicos derivados del tamaño de las bibliotecas de secuenciación o de la longitud de los genes. Se transforma la matriz de recuentos crudos en medidas normalizadas, como RPKM (Reads Per Kilobase per Million), que permiten interpretar los niveles de expresión de forma más robusta y comparable entre genes y muestras.

A lo largo del análisis, se visualiza la matriz normalizada y se evalúan métricas clave como el total de expresión por muestra o el número de genes expresados, permitiendo detectar posibles anomalías o desviaciones tras la transformación. También se identifican los genes con mayor expresión global y se estudia la distribución de expresión a través de diagramas de caja, comparándola con los datos originales para valorar el efecto de la normalización.

Esta fase prepara el terreno para los análisis posteriores, donde se requerirá que los datos estén correctamente ajustados para aplicar modelos estadísticos fiables. La normalización, por tanto, constituye un paso fundamental previo a la evaluación de la calidad post-normalización y a los análisis de expresión diferencial y enriquecimiento funcional, claves para extraer conocimiento biológico relevante a partir del perfil transcriptómico estudiado.

Tabla de contenidos de esta subsección

  • 5. Análisis estadístico de la expresión génica
    • 5.1. Normalización de los datos de expresión
      • 5.1.1. Visualización de la matriz de expresión normalizada
      • 5.1.2. Total de expresión por muestra (RPKM)
      • 5.1.3. Número de genes expresados por muestra (RPKM)
      • 5.1.4. Genes con mayor expresión total (RPKM)
      • 5.1.5. Distribución de expresión por muestra (boxplot log10 RPKM)
      • 5.1.6. Comparación entre recuentos crudos y datos normalizados

5.1. Normalización de los datos de expresión

La cuantificación inicial de la expresión génica genera una matriz de recuentos crudos, en la que cada valor representa el número de lecturas que se alinean a un gen específico en una muestra determinada. No obstante, estos valores pueden estar influenciados por factores técnicos no biológicos, como la profundidad de secuenciación o la longitud de los genes, lo que dificulta la comparación directa entre muestras o genes.

Para mitigar estas fuentes de sesgo y facilitar comparaciones significativas, se ha aplicado un proceso de normalización. En este análisis, se ha empleado el método RPKM (Reads Per Kilobase of transcript per Million mapped reads), el cual ajusta los recuentos teniendo en cuenta tanto la longitud del gen como el número total de lecturas mapeadas por muestra.

El resultado de esta transformación es una matriz de expresión normalizada que permite comparar niveles de expresión relativos de manera más robusta entre genes y entre condiciones experimentales.

La matriz RPKM utilizada en este proyecto viene dada por el nombre mary_RPKM.xls y en el momento de la generación de este informe se encuentra en el siguiente directorio:

/data/EXT_RNA_Seq/Resultados/mary/mary_RPKM.xls

A continuación, se muestra esta matriz junto con un conjunto de visualizaciones que permiten explorar las características globales de los datos normalizados y compararlas con los patrones observados en los recuentos crudos presentados en la sección anterior.

5.1.1. Visualización de la matriz de expresión normalizada

A continuación, se presenta una vista interactiva de la matriz de expresión génica normalizada, obtenida a partir del archivo exp3_RPKM.xls. Esta matriz contiene valores transformados según el método RPKM, lo que permite una comparación más equitativa de los niveles de expresión génica entre diferentes muestras y genes, corrigiendo posibles sesgos técnicos asociados al tamaño de los genes o a la profundidad de secuenciación.

La tabla interactiva mostrada a continuación permite explorar en detalle los valores de expresión normalizada. Se puede buscar un gen específico utilizando el cuadro de búsqueda, así como ordenar las columnas para identificar rápidamente genes con altos o bajos niveles de expresión en cada muestra.

Esta visualización resulta especialmente útil para detectar posibles patrones globales de expresión, validar muestras atípicas o verificar la correcta distribución de los valores normalizados antes de proceder al análisis estadístico de expresión diferencial.

Si desea consultar el archivo completo, puede hacerlo directamente desde el visor incrustado justo debajo o abrirlo en una nueva pestaña.

🔍 Ver matriz normalizada en una nueva página

5.1.2. Total de expresión por muestra (RPKM)

Para continuar con la exploración de los datos normalizados, se calcula el total de expresión por muestra sumando los valores de RPKM correspondientes a todos los genes. Este valor refleja la cantidad global de expresión génica detectada en cada muestra tras la corrección por longitud génica y profundidad de secuenciación.

A continuación, se presenta una tabla con los totales de expresión normalizada por muestra, seguida de una representación gráfica interactiva en forma de barras. Esta visualización facilita la comparación del nivel global de expresión entre las distintas condiciones y réplicas del experimento.

5.1.3. Número de genes expresados por muestra (RPKM)

Una vez evaluado el total de expresión global por muestra, el siguiente paso consiste en determinar cuántos genes se consideran expresados en cada una de ellas tras la normalización mediante RPKM. Para este análisis, se considera que un gen está expresado en una muestra si su valor de RPKM es mayor que cero.

Esta métrica resulta útil para detectar muestras con baja complejidad transcriptómica o posibles fallos técnicos, ya que un número reducido de genes expresados podría ser indicativo de una extracción deficiente de RNA, contaminación o errores durante la secuenciación o cuantificación.

A continuación se muestra una tabla con el número de genes expresados por muestra según el criterio anterior, seguida de una visualización en forma de gráfico que permite comparar fácilmente este indicador entre condiciones biológicas y réplicas.

5.1.4. Genes con mayor expresión total (RPKM)

Para identificar los genes con mayor nivel de expresión dentro del conjunto de datos normalizados, se calcula la suma total de valores RPKM por gen a lo largo de todas las muestras. Esta métrica permite detectar aquellos genes cuya actividad transcripcional es más elevada de forma global tras corregir por longitud génica y profundidad de secuenciación.

Este análisis resulta útil para destacar genes altamente expresados que podrían desempeñar funciones clave en el contexto experimental, o bien reflejar la expresión constitutiva de genes de mantenimiento (housekeeping).

A continuación se presentan los genes ordenados de forma descendente según su expresión acumulada en RPKM. La tabla está acompañada por una visualización interactiva que muestra los 20 genes con mayor expresión, permitiendo valorar su contribución relativa dentro del conjunto de datos.

5.1.5. Distribución de expresión por muestra (boxplot log10 RPKM)

Para evaluar la variabilidad de los niveles de expresión normalizados entre muestras, se genera un gráfico de cajas (boxplot) basado en la transformación logarítmica (log10) de los valores RPKM. Esta transformación permite representar la distribución de los datos de manera más adecuada, suavizando el efecto de valores extremadamente altos y resaltando diferencias sutiles entre condiciones.

Los valores RPKM iguales a cero se excluyen previamente para evitar problemas con la escala logarítmica. Esta visualización resulta especialmente útil para verificar la homogeneidad entre réplicas, detectar valores atípicos y evaluar si las muestras presentan perfiles de expresión comparables tras la normalización.

A continuación, se presenta el boxplot interactivo correspondiente a todas las muestras del experimento.

5.1.6. Comparación entre recuentos crudos y datos normalizados

En el análisis de datos de expresión génica, la normalización es un paso crítico que busca corregir sesgos técnicos derivados de variaciones en la profundidad de secuenciación, tamaño de los genes y otros factores experimentales. Aunque la normalización tiene como objetivo hacer que los datos sean comparables entre muestras, es fundamental evaluar cómo este proceso afecta a la distribución y la relación entre los valores originales (recuentos crudos) y los ajustados (normalizados).

Esta comparación nos permite verificar dos aspectos importantes: primero, que la normalización efectivamente reduzca las diferencias técnicas no biológicas que podrían sesgar los resultados; y segundo, que preserve la estructura biológica y las diferencias genuinas en la expresión génica.

Es importante destacar que la matriz normalizada puede contener un número menor o igual de genes que la matriz inicial de conteos, debido a que durante el proceso de normalización o preprocesamiento se suelen filtrar genes con baja expresión o sin anotación adecuada para asegurar la calidad del análisis.

Para explorar y evaluar esta comparación, se presentan a continuación tres tipos de visualizaciones complementarias que nos permiten entender mejor cómo varían los datos antes y después de la normalización:

  • Boxplots comparativos: muestran la distribución logarítmica (log10) de los valores crudos y normalizados, agrupados por muestra, para visualizar la homogeneización y reducción de la dispersión tras la normalización.
  • Scatterplots por muestra: comparan, en escala logarítmica, los valores crudos frente a los normalizados por gen en muestras seleccionadas, revelando la relación directa y la consistencia entre ambas mediciones.
  • Gráfico de barras de correlación: presenta la correlación de Pearson entre los recuentos crudos y los valores normalizados para cada muestra, proporcionando una métrica cuantitativa de concordancia entre ambos conjuntos de datos.

A continuación se detallan cada una de estas visualizaciones, explicando su interpretación y utilidad para el análisis de expresión génica.

Distribución de los valores por muestra (boxplot log10):
El gráfico de cajas muestra la distribución de los recuentos de expresión para cada muestra, aplicando una transformación logarítmica (log10) para mejorar la visualización y homogeneizar la escala. Se presentan lado a lado los datos crudos y normalizados, lo que permite comparar la variabilidad y dispersión entre ambos conjuntos. En general, se observa que la normalización reduce la variabilidad extrema y alinea mejor las distribuciones entre muestras, facilitando comparaciones posteriores y minimizando el sesgo técnico derivado de diferencias en profundidad de secuenciación o longitud génica.

Relación directa entre recuentos crudos y normalizados (scatterplot por muestra): Para ejemplificar la relación entre los dos tipos de datos, se selecciona una muestra representativa y se grafica la expresión génica por cada gen en escala logarítmica, comparando valores crudos frente a valores normalizados. La línea diagonal punteada indica la igualdad entre ambos valores; los puntos por debajo muestran genes que han sido ajustados a niveles inferiores tras la normalización. Este gráfico ayuda a visualizar cómo la normalización corrige sistemáticamente los recuentos, especialmente aquellos genes con valores extremos, sin alterar la tendencia general entre genes altamente y poco expresados.

Correlación de Pearson entre recuentos crudos y normalizados por muestra: Para cuantificar la relación entre los dos conjuntos de datos, se calcula el coeficiente de correlación de Pearson para cada muestra, reflejando la conservación relativa de los patrones de expresión génica. Altos valores de correlación indican que la normalización mantiene la estructura biológica entre genes dentro de cada muestra, a la vez que corrige variaciones técnicas. Este análisis cuantitativo complementa las visualizaciones previas y aporta una medida objetiva de la calidad del proceso de normalización.